[Day17] 來看看文本倒置是要倒轉什麼: Embedding

2023 iThome 鐵人賽

DAY 17

AI & Data

關於我將 AIGC 導入企業的那些坑-以 Stable Diffusion 為例系列第 17 篇

15th鐵人賽

Nick

2023-10-02 21:13:13

695 瀏覽

分享至

提要

前言
什麼是Embedding
Embedding的方法
Embedding的使用

前言

今天我們介紹 Embedding 相關的內容，Embedding是一種從少量範例影像中捕捉新穎概念的技術。以不改動整個模型參數的方式去微調模型，其他類似方法還有LoRA、HyperNetwork，本日內容包含：什麼是Embedding、Embedding的方法、及Embedding的使用。

什麼是Embedding

Embedding 是一種尋找詞嵌入的方法，又稱作 Text inversion，它主要的概念是透過既有架構底下去尋找新詞作為詞嵌入的表示，藉此找到新概念並嵌入到 Latent Diffusion Model 當中，在訓練模型的時候，我們已經知道，大型語言模型重新訓練是非常吃算力的，會很需要大量的顯示卡以加速訓練的速度，有鑑於此，有人進而去思考以微調 ( fine tuning ) 的方式去優化模型，傳統的方法我們會使用 Linear Probe，它是透過凍結不需要訓練的層數，只開放少數層訓練，進而快速調整模型結構以適應新的任務，然而，這樣的方法存在些問題，另外訓練的這些「適應層」會有遺忘先驗知識 ( prior knowledge ) 的問題，以詞嵌入的方法 Embedding 可以解決這樣的問題。

Embedding的方法

先上架構圖，如下所示。

主要的核心概念是以「虛擬詞」作為詞嵌入 ( token embedding )，讓我們可以使用文本加上幾張圖片(3~5張)，實現個人化的文生圖功能。因其方法是Textual inversion，我們可以先回顧下它比較過的方法；例如，GAN inversion、Diffusion-based inversion。

訓練一個生成模型通常是以找到對應圖像映射至「潛在表示 ( latent representation ) 」的規則作為判斷標準，這樣的方法稱為 inversion，像訓練 GAN 的過程就會以「潛向量 ( latent vector )」作為輸入，或是以訓練編碼器 ( encoder ) 的方式也可以，至於訓練 Diffusion-based 的模型就會以找到「潛空間 ( latent space )」為基準，為了要找到潛在表示，所以會用擴散及去噪的方法以實現，但這方法會改動到原本的圖像，因此還有優化空間，Textual inversion 不使用轉換潛空間的方法，是以尋找 pseudo word 方式來做。

流程上主要改進了 Text Encoder 中的詞對照表，透過添加一個特殊的token S_*來實現，這樣就不會動到原本的對照表，可以保留原本的概念 ( token embedding )，也能學到些新的東西，為了學習v_*，它模仿了 CLIP 中用到的prompt，按照這個學到的文字生成圖片與輸入的圖像做對照，藉此學習到新的v_*的詞嵌入，以重建損失來優化token S_*，學好了之後就能以此規則生成圖像了。

小結一下，Textual inversion 改進了既有 Latent Diffusion Model 的方法，它不需要重新訓練模型，只要訓練一個新的Embedding就可以，這樣可以在使用一個SD模型的情況底下去生成客製化的圖片，進而達成文生圖的「個人化」、相同物體生成效果較好、能適度引入新概念的圖生成且不扭曲、可實現風格遷移及概念合成等優點，不過還是有些限制，像是它無法學習到精確的細節、訓練prompt的時間偏長等問題。

Embedding的使用

這節我們看下如何使用 Embedding 的功能，先啟動SD的介面

開啟容器

sudo docker run --gpus 1 --network host --it 105552010/sd-test:v1.6.0 bash

啟動SD

./webui.sh -f --enable-insecure-extension-access --listen

啟動後，切換到Train的分頁。

定義好Name及其他設定後就能訓練Embedding了，Good Luck！

小結

今天我們介紹了關於 Embedding 的內容；例如，什麼是Embedding、Embedding的方法、及Embedding的使用，明天會介紹DreamBooth，明天見！

參考連結

[Day16] Stable Diffusion的基礎使用

[Day18] Dreambooth，夢幻般的驚嘆調

系列文

關於我將 AIGC 導入企業的那些坑-以 Stable Diffusion 為例共 31 篇

RSS系列文訂閱系列文

7 人訂閱

完整目錄

直播研討會

{{ item.channelVendor }} {{ item.webinarstarted }} |

直播中

尚未有邦友留言

立即登入留言

參賽組數

1064 組

團體組數

40 組

累計文章數

22200 篇

完賽人數

602 人

15th鐵人賽 16th鐵人賽 13th鐵人賽 14th鐵人賽 12th鐵人賽 11th鐵人賽鐵人賽 2019鐵人賽 javascript 2018鐵人賽 python 2017鐵人賽 windows php c# windows server linux css react vue.js

IT邦幫忙

關於我將 AIGC 導入企業的那些坑-以 Stable Diffusion 為例系列 第 17 篇